Telegram Group & Telegram Channel
🔴 Как системно оценить качество предобработанных данных перед обучением большой языковой модели (LLM)

Перед тем как запускать дорогостоящий процесс обучения LLM, важно убедиться, что ваши данные чисты, релевантны и структурированы.

Оценка должна включать как количественные, так и качественные метрики.

➡️ Количественные метрики:

😶 Распределение токенов
Проверьте, не доминируют ли специальные токены, мусорные фрагменты или нерелевантные конструкции. Ожидаемые токены (например, ключевые слова доменной области) должны иметь разумную частоту.

😶 Покрытие словаря
Оцените, насколько хорошо охвачены часто встречающиеся слова и сабворды в вашей предметной области. Можно использовать частотный анализ на корпусе.

😶 Статистика по длине документов
Сравните среднюю и медианную длину документов с ожидаемыми значениями. Аномально короткие или длинные тексты могут быть ошибками разметки или дубликатами.

😶 Языковое распределение
В мультиязычном корпусе важно убедиться, что каждый язык представлен в правильной пропорции. Используйте модель определения языка (например, fastText или langid.py).

➡️ Качественные проверки:

😶 Ручная выборка документов
Просмотрите случайные примеры: содержимое должно быть осмысленным, без мусора, персональных данных или несоответствий тематике.

😶 Проверка дубликатов и шаблонов
Автоматически найдите повторяющиеся документы или шаблонные страницы (например, элементы веб-навигации).

😶 Оценка перплексии на тестовой модели
Можно применить небольшую предварительно обученную LLM к данным, чтобы вычислить перплексию. Высокая перплексия может сигнализировать о шуме или нерелевантности.

😶 Автоматическое обнаружение аномалий
Используйте кластеризацию или модели выявления аномалий, чтобы найти подозрительные группы документов.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/996
Create:
Last Update:

🔴 Как системно оценить качество предобработанных данных перед обучением большой языковой модели (LLM)

Перед тем как запускать дорогостоящий процесс обучения LLM, важно убедиться, что ваши данные чисты, релевантны и структурированы.

Оценка должна включать как количественные, так и качественные метрики.

➡️ Количественные метрики:

😶 Распределение токенов
Проверьте, не доминируют ли специальные токены, мусорные фрагменты или нерелевантные конструкции. Ожидаемые токены (например, ключевые слова доменной области) должны иметь разумную частоту.

😶 Покрытие словаря
Оцените, насколько хорошо охвачены часто встречающиеся слова и сабворды в вашей предметной области. Можно использовать частотный анализ на корпусе.

😶 Статистика по длине документов
Сравните среднюю и медианную длину документов с ожидаемыми значениями. Аномально короткие или длинные тексты могут быть ошибками разметки или дубликатами.

😶 Языковое распределение
В мультиязычном корпусе важно убедиться, что каждый язык представлен в правильной пропорции. Используйте модель определения языка (например, fastText или langid.py).

➡️ Качественные проверки:

😶 Ручная выборка документов
Просмотрите случайные примеры: содержимое должно быть осмысленным, без мусора, персональных данных или несоответствий тематике.

😶 Проверка дубликатов и шаблонов
Автоматически найдите повторяющиеся документы или шаблонные страницы (например, элементы веб-навигации).

😶 Оценка перплексии на тестовой модели
Можно применить небольшую предварительно обученную LLM к данным, чтобы вычислить перплексию. Высокая перплексия может сигнализировать о шуме или нерелевантности.

😶 Автоматическое обнаружение аномалий
Используйте кластеризацию или модели выявления аномалий, чтобы найти подозрительные группы документов.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/996

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

What Is Bitcoin?

Bitcoin is a decentralized digital currency that you can buy, sell and exchange directly, without an intermediary like a bank. Bitcoin’s creator, Satoshi Nakamoto, originally described the need for “an electronic payment system based on cryptographic proof instead of trust.” Each and every Bitcoin transaction that’s ever been made exists on a public ledger accessible to everyone, making transactions hard to reverse and difficult to fake. That’s by design: Core to their decentralized nature, Bitcoins aren’t backed by the government or any issuing institution, and there’s nothing to guarantee their value besides the proof baked in the heart of the system. “The reason why it’s worth money is simply because we, as people, decided it has value—same as gold,” says Anton Mozgovoy, co-founder & CEO of digital financial service company Holyheld.

What is Secret Chats of Telegram

Secret Chats are one of the service’s additional security features; it allows messages to be sent with client-to-client encryption. This setup means that, unlike regular messages, these secret messages can only be accessed from the device’s that initiated and accepted the chat. Additionally, Telegram notes that secret chats leave no trace on the company’s services and offer a self-destruct timer.

Библиотека собеса по Data Science | вопросы с собеседований from fr


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA